13. 単回帰分析

https://gyazo.com/4f7dfd91756d579cff6ea820ee6ff329

https://amzn.to/32dVAdF

13.1. 単回帰モデル

https://gyazo.com/cd4f16d41723ca4bc2c01a44cd666eed

変数「喫煙者数」は1人あたりタバコの消費量(100本)

変数「肺がん」は肺がんによる人口10万人あたりの死亡者数

これを以後「肺がんデータ」と呼ぶ

「肺がんデータ」は観測対象が共通した2変数データと言う意味では、第7章に登場した「パスタデータ」と同じ

「パスタデータ」の観測対象はパスタであり、「肺がんデータ」の観測対象は州

したがって「パスタデータ」と同様に「肺がんデータ」でも散布図を描くことができる

https://gyazo.com/49bdbc7903bb05c08f284ef9235ef7bd

コロンビア特別区(DC, District of Columbia)は右上端に位置し、「喫煙数」と「肺がん」がともに大きい

ネブラスカ州(NE, Nebraska)は「喫煙数」はトップだが、「肺がん」はトップではない

逆にユタ州(UT, utah)は散布図の左下に位置し、「喫煙数」と「肺がん」が最も小さい

対応ある2変数のデータは相関係数を計算することもできた

「肺がんデータ」の相関係数は$ 0.697であり、正の相関関係がある

「煙草の消費量の多い州は、肺がんによる死亡者も多い傾向がある」と解釈できる

逆に「パスタデータ」との相違点は何か

2つの変数の測定単位が異なること

パスタデータ: 実測も目測もmm

肺がんデータ: 喫煙数(本数), 肺がん(人数)

2つの変数の平均値を比較すること自体に意味がない

13.1.1. 回帰直線

回帰分析(regression analysis)

一方の変数から他方の変数を予測・説明するための分析方法

「どのくらい煙草を消費していたら、何人くらい肺がんで亡くなるか」

従属変数(dependent variable), 基準変数(criterion variable)

予測される変数

この場合は「肺がん」

ここでは$ yと表す

独立変数(independent variable), 予測変数(predictor variable)

予測に利用する変数

この場合は「喫煙数」

ここでは$ xと表す

測定された基準変数$ y_iを予測するとは、何らかの関数$ f(\quad)を用いて、予測値(predicted value, fitted value)$ \hat y_iを構成すること

$ \hat y_i = f(x_i) \qquad (13.1)

添え字$ iは観測対象を表現しており、「肺がんデータ」の場合の$ iは$ 1から$ 44まで動く

ここでは入門的な予測のための関数として、以下のような一次変換を選ぶ

$ \hat y_i = a + b \times x_i \qquad (13.2)

1次変換の定数$ a, bを定めると1本の直線が決まる

「肺がんデータ」の州名を○で置き換え、データにまとわりつく直線を描いた散布図の再表現が図13−2

https://gyazo.com/696bb234979fbcbf46f051cdf7085f89

単回帰直線(simple regression line)

(13.2)式のような予測式

単回帰分析(simple regression analysis)

単価樹直線を使って$ x_iと$ y_iの関係を分析する方法

このとき$ aを切片(intercept)といい、$ bを回帰係数(regression coefficient)という

予測式(13.2)には基準変数の測定値$ y_iが登場する

予測値が測定値にぴったり一致することは期待できない

そこで誤差変数(error variable)$ e_iを導入し、基準変数の測定値$ y_iを次のように表現する

$ y_i = a + b \times x_i + e_i \qquad (13.3)

これを単回帰モデル(simple regression model)という

誤差変数$ e_iは残差(residual)ともいう

単回帰モデルは(13.2)式を考慮して以下のように表現することができる

$ y_i = \hat y_i + e_i \qquad (13.4)

https://gyazo.com/aceff91ca5f3951fbeae4916105de0c6

13.1.2. 事後分布

(13.4)式の誤差変数$ e_iが、平均$ 0、標準偏差$ \sigma_eの正規分布(1.7)式

$ e_i \sim N(0, \sigma_e) \qquad (13.5)

に従い、$ e_iと$ x_iが独立であるとすると

$ y_i \sim N(\hat y_i, \sigma_e) = N(a + b \times x_i, \sigma_e) \qquad (13.6)

と導かれ、$ y_iの分布は正規分布の密度関数を利用して

$ f(y_i|\bm \theta) = f(y_i|a+b \times x_i, \sigma_e), \qquad (13.7)

$ ただし, \bm \theta = (a, b, \sigma_e)

と表現される

$ x_iは定数であり、確率的に変動しないし母数でもない

$ n個の測定が互いに独立だとすると、(2.12)式に相当する尤度は、

$ f(\bm y|\bm\theta) = f(y_1|\bm\theta) \times \cdots \times f(y_n|\bm\theta) \qquad (13.8)

となる。ただし

$ \bm y = (y_1, y_2, \cdots, y_{n-1}, y_n) = (25.88, 17.05, \cdots, 15.53, 15.92) \qquad (13.9)

である

次に母数は互いに独立であるとか停止、(2.14)式に相当する同時事前分布を、適当な一様分布の積として

$ f(\bm\theta) = f(a) \times f(b) \times f(\sigma_e) \qquad (13.10)

のように導く

最後に(2.15)式に相当する事後分布を

$ f(\bm\theta|\bm y) \propto f(\bm y|\bm\theta)f(\bm\theta) \qquad (13.11)

と導く。MCMC法を利用することにより、母数の事後分布・生成量の事後分布・予測分布に従う乱数を生成することが可能になる

13.2 生成量と予測分布

13.2.1. 予測値の事後分布

予測値の事後分布は、以下の生成量で近似する

$ \hat y_i^{(t)} = a^{(t)} + b^{(t)} \times x_i \qquad (13.12)

予測値の分散$ \sigma_{\hat y}^2の事後分布は、$ \hat y_i^{(t)}の分散である$ \sigma_{\hat y}^{2(t)}で近似する

13.2.2. 回帰直線の事後分布

任意の予測変数の値$ x^*に対する予測値の事後分布は、以下の生成量で近似する

$ \hat y^{*(t)} = a^{(t)} + b^{(t)} \times x^* \qquad (13.13)

広い範囲の間隔の短い等差数列を$ x^* に与えると、回帰直線の事後分布の近似が得られる

13.2.3. 決定係数

予測値$ \hat y_iと誤差変数$ e_iが互いに独立であるとすると、和の分散は分散の和となるから、測定値の分散$ \sigma_{\hat y}^2と誤差の分散$ \sigma_e^2の単純な和となる

$ \sigma_y^2 = \sigma_{\hat y}^2 + \sigma_e^2 \qquad (13.14)

予測変数による基準変数の予測の精度として利用できる1つの指標

$ \eta^2 = \frac{\sigma_{\hat y}^2}{\sigma_y^2} = \frac{\sigma_{\hat y}^2}{\sigma_{\hat y}^2 + \sigma_e^2} \qquad (13.15)

(13.15)式は9. 1要因実験の分析で登場した(分散)説明率

ただし、回帰の文脈では決定係数(coefficient of determination, R-squared(multiple R-squared) )と呼ばれることが多い

決定係数の事後分布は以下の生成量で近似する

$ \eta^{2(t)} = \frac{\sigma_{\hat y}^{2(t)}}{\sigma_{\hat y}^{2(t)} + \sigma_e^{2(t)}} \qquad (13.16)

13.2.4. 事後予測分布

手元の基準変数の事後予測分布は、以下の乱数によって近似する

$ y_i^{*(t)} \sim N(a^{(t)} + b^{(t)} \times x_i, \sigma_e^{(t)}) \qquad (13.17)

手元のデータではなく、任意の予測変数の値$ x^*に対する基準変数の事後分布は、以下の乱数によって近似する

$ y^{*(t)} \sim N(a^{(t)} + b^{(t)} \times x^*, \sigma_e^{(t)}) \qquad (13.18)

広い範囲の間隔の短い等差数列を$ x^*に与えると、単回帰モデルの事後予測分布の近似が得られる

13.3. 分析結果

「肺がん」を基準変数とし、「喫煙数」を予測変数として回帰分析を行う

$ 21000個の乱数を5本発生させ、バーンイン期間を$ 1000とし、$ T=100000の乱数によって母数の事後分布を近似した

13.3.1. 母数と決定係数

母数と決定係数の推定結果

table: 表13-2 単回帰モデルの母数と決定係数の事後分布

EAP post.sd 2.5% 5% 50% 95% 97.5%

a(切片) 6.466 2.211 2.104 2.823 6.473 10.094 10.815

b(回帰係数) 0.529 0.087 0.359 0.387 0.529 0.672 0.700

σₑ(誤差sd) 3.164 0.358 2.556 2.638 3.131 3.803 3.957

η²(決定係数) 0.458 0.096 0.251 0.288 0.465 0.604 0.625

EAPを利用すると、回帰直線は次のように構成される

$ \hat y = 6.466 + 0.529 \times x \qquad (13.19)

「肺がんデータ」の「喫煙数」そのものを代入する必要はないから、添え字$ iはつけない

切片は予測変数が$ x = 0であるときの、基準変数の予測値

切片の推定値は$ 6.466(2.211)[2,104, 10.815]

したがって、煙草を全く消費しなくなると、肺がんによる10万人あたりの年間死亡者数は約6.5人になると予測される

回帰係数は、予測変数が1単位増加した時の基準変数の予測値の変化量

回帰係数の推定値は$ 0.529(0.087)[0.359, 0.700]

1人あたりの煙草の年間消費量が100本増えると、肺がんによる10万人あたりの年間死亡者数は約0.5人(200本で約1人)増えることが予測される

決定係数の推定値は$ 0.458(0.096)[0.251, 0.625]

「肺がん」のデータの散らばりは、「喫煙数」によって$ 45.8\%説明されると解釈する

13.3.2. 観測対象の分析

表13-3に観測対象の情報を示す

https://gyazo.com/99fb0b7f7f837eb2760aa099fc421bee

13.3.1. 残差プロット

残差プロット(residual plot)

独立変数と残差の散布図

https://gyazo.com/db259a434ad33ed4961fd23083530049

残差プロットが与える情報

たとえばルイジアナ州は一番上に位置しており、「喫煙数」から予測される値よりも約7.6人も死亡者が多い

ペンシルヴァニア州は、一番下に位置しており、「喫煙数」から予測される値よりも約6.9人も死亡者が少ない

残差プロットは「ルイジアナ州とペンシルヴァニア州は『喫煙数』がほぼ同じなのに、死亡者数が極端に異なる」に類する観測対象に関する有用な知見をしばしば示してくれる

13.3.4. 回帰直線の確信区間と基準変数の予測区間

https://gyazo.com/6185d1edb99564b7d8a19497cd12c61e

真ん中の実線: 回帰直線

破線: 回帰直線の95%確信区間

点線: 基準変数$ y^*の95%予測区間

回帰直線の95%確信区間の描き方

予測変数を覆う区間の点$ x^*を用意する

ここでは「喫煙数」に関して$ 9から$ 2おきで$ 47までの合計$ 20の点を選んだ

その$ 20の点$ x^*で(13.13)式を評価し、構成した$ 20個の$ \hat y^{*(t)}の事後分布を求める

$ 20個の事後分布の2.5%点を破線で結び、97.5%点も破線で結べば、その内側が回帰直線の95%確信区間となる

基準変数$ y^*の95%予測区間の描き方

予測変数を覆う区間の点$ x^*を用意する

先と同じ$ 20の点とする

その$ 20の点$ x^*を利用して(13.18)式で乱数を発生させ、構成した$ 20個の$ y^{*(t)}の事後分布を求める

$ 20個の予測分布の2.5%点を点線で結び、97.5%点も点線で結べば、その内側が基準変数$ y^{*(t)}の95%予測区間となる

放送授業

データから計算した眼の前の95%信頼区間に母数が含まれる確率は95%ではない

95%の「95%信頼区間」が母数を含む

95%最高事後密度区間は、事後分布の密度が高い部分の95%の範囲である

両側確信区間は、まれにMAP推定値を含まないこともある

→14. 重回帰分析